Aprendizaje offline-online en bandidos lineales
Descubre cómo nuestro algoritmo combina datos offline y exploración online en bandidos lineales para minimizar el arrepentimiento. Resultados empíricos demuestran su eficacia.
Descubre cómo nuestro algoritmo combina datos offline y exploración online en bandidos lineales para minimizar el arrepentimiento. Resultados empíricos demuestran su eficacia.
Descubre la primera cota inferior para algoritmos basados en medias en bandidos con horizonte desconocido. Nuevos algoritmos competitivos y su relación con no-regret.
Descubre: Primer algoritmo de aprendizaje online con regret de intervalo adaptativo a la variación del gradiente. Garantías óptimas y ajuste automático.
Descubre nuevos algoritmos para MDPs con transiciones adversariales que logran regret sublineal. Basados en medidas de ocupación condicionadas.
Controla el CVaR en entornos adversarios sin estacionariedad. Método basado en inferencia conforme garantiza seguridad. Ideal para portafolios y LLMs.
Descubre cómo un algoritmo de aprendizaje dual logra pujas óptimas en mercados FCR europeos, combinando eficiencia estocástica y robustez adversarial. ¡Mejora tu estrategia!
Descubra cómo la nueva estructura 'Árbol LCLL' define la aprendibilidad en clasificación online transductiva con etiquetas ilimitadas, y las dos únicas tasas óptimas posibles.